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Biologia Molecular 4 Tópicos 
Data Warehouse e OLAP = Data warehousing 
E A = Data warehouse 


= Sistemas de BD online 
| = OLAP 
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Monitor: Valéria Carvalho co 
= Operações com OLAP 
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4 Data Warehousing 4 Data Warehousing 


= Processo de construir e usar data = Etapas necessárias: 
warehouses (armazéns de dados) - Limpeza de dados 


= Fornece estruturas (arquiteturas) e = Integração de dados provenientes de 
ferramentas necessárias para usuário diferentes BDs 
organizar e analisar seus dados « Transformação dos dados 
= Para tomada de decisões estratégicas « Consolidação de dados 


» Centralizar armazenamento dos dados 
integrados 
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4 Data Warehouse 4 Data Warehouse 


= Importante passo de pré-processamento 
para MD 

= Existem várias definições 
= Mas falta uma definição formal 

= Uma BD de suporte à decisão que é mantida 
separadamente da BD da organização 


= Auxilia processamento de informação 
consolidando dados históricos para análise 
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+ Orientada a um Tema + Integrada 


= Dados são organizado em torno de temas: = Integra dados de diversas fontes 


= Ex.: pacientes, clientes, produtos, vendas = Diferentes filiais, setores, empresas, 


= Fornece uma visão simples e concisa sobre centros de pesquisa, hospitais... 
um tema 


oa. = Fontes são heterogêneas 
= Excluindo dados que nao sao uteis no processo de 
tomada de decisão = BDs relacionais 


= Foca em modelagem e análise de dados para = Arquivos texto 
tomadores de decisão = Registros de transações online, etc 


= Não em operações diárias e processamento de 
transações 
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He Integrada + Variante no Tempo 


= Para lidar com fontes diferentes, são = Horizonte de tempo maior que BDs 
aplicadas tecnicas de limpeza e de integração convencionais 


= Garantem consistência dos dados . 
a Es = Dados em um BD convencional armazenam 
= Convenções de nomes, formas de codificação, medidas 


de atributo, etc. apenas valores atuais 
= Formato para endereços em diferentes países = Ex.: dados de funcionários 
= Profissão em diferentes regiões ; 
= Medidas de peso em diferentes países = Dados em uma DW varrem um periodo de 


= Formato de dados de proteínas de diferentes repositórios tempo (por exemplo, 5 a 10 anos) 


= Dados são convertidos quando movidos para a data 


= Toda estrutura utilizada como chave contém um 
warehouse 


elemento temporal 
» Explicita ou implicitamente 
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+ Não Volátil + Data Warehouse 


= Após transformados, dados são = Armazém de dados semanticamente 
armazenados em um novo local físico consistente 


= Atualização dos dados nos BDs não altera « Serve como implementação física de um modelo 
automaticamente dados armazenados na DW de dados de suporte à decisão 
= Não precisa de mecanismos para controle de = Arquitetura construída pela integração de 
acesso simultâneo, recuperação e transação dados de múltiplas fontes heterogêneas 
= Geralmente requer apenas duas operações: = Para suportar consultas estruturadas ou 
carregar e acessar os dados eventuais, relatórios analíticos e tomada de 
decisão 
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Data Warehouse 


= À maioria das pessoas está familiarizada 
com SGBDs relacionais comerciais 


= Comparação com eles facilita entender 
funcionamento dos sistemas de DW 
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OLTP x OLAP 





OLTP 


OLAP 








Usuários 


Profissional de TI, usuário 


Analista de conhecimento 








Função 


Operações diárias 


Suporte a decisão 








Projeto de BD 


Orientada a aplicação 


Orientado a tema 








Dados 


Atuais, atualizados, tabela 
isolada 


Históricos, resumidos, integrados, 
multidimensionais, consolidados 








Uso 


Repetitivo 


Eventual 








Acesso 


Ler/escrever 
Indexação/hash chave prim. 


Várias explorações 











Unidade de trabalho 


Transações curtas e simples 


Perguntas complexas 





HRegistros acessados 


Dezenas 


Milhões 





$Usuários 


Milhares 


Centenas 








Tamanho da BD 


Métrica 








OLAP 


100MB-GB 


Volume de transações 





100GB-TB 


Volume de consultas 


= Representação matricial 
multidimensional 
= Já era usada em estatística e outras áreas 
= Ex.: em planilhas eletrônicas 
= Facilita aplicação de várias operações de 
exploração e análise de dados 


= Forte foco em análise interativa de dados 
= Fornece capacidades para visualização e geração de 


BD online x Datawarehouse 


= Sistemas de BD online 


= Fornecem ferramentas que 
processam transações e 
consultas online 
= Cobrem operações do dia- 
a-dia de uma organização 
Compras, controle de 


estoque, pagamentos, 
contabilidade, etc 


= On-line transaction 
processing systems (OLTP) 
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OLAP 


Datawarehouse 


= Fornecem ferramentas que 
auxiliam na análise de 
dados e tomada de decisão 
= Podem organizar e 
apresentar dados em 
vários formatos 


= Para satisfazer as 
necessidades diversas dos 
diferentes usuários 


= On-Line Analytical 
Processing (OLAP) 


= Desenvolvido pelo mesmo criador dos 


BDs relacionais 
= E. F. Codd 


= BDs relacionais: armazenam dados em 


tabelas 


= OLAPs: Usam uma representação 
matricial multidimensional 
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Matrizes Multidimensionais 


= Maioria dos conjuntos de dados são 
representados por tabela atributo-valor 


= Seja o conjunto de dados Tris 


Versicol 





Virginic 





resumos estatísticos 
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+ Conjunto Tris + Matrizes Multidimensionais 


= Iris (lírio): planta com flor = É fácil ver os mesmos dados utilizando 
= Atributos de entrada numéricos 


AN em uma matriz multidimensional 
= Sepal length (cm) A 
« Sepal width (cm) | “We = Tabelas podem ser convertidas em 


= Petal length (cm) matrizes multidimencionais 
= Petal width (cm) 


GA = Criação de matrizes multidimensionais 
= Classes É O 2d 


= Tris Setosa 


= Iris Versicolour qd 


= Iris Virginica 


= 150 exemplos, com distribuição 33/33/33 


Tamanho 





da pétala 


+ Criação de Matrizes Multidimensionais + Identificação dos atributos 


= Passo 1: Identificar que atributos serão as = Atributos-dimensão devem assumir 
dimensões e qual atributo será o atributo alvo 


valores discretos e finitos 
= Atributos-dimensão (e valores), que definem as = Uma dimensão para cada atributo 
entradas da matriz multidimensional 


= Número de valores de um atributo = 
= Atributo alvo, que define o conteudo das entradas variação de sua dimensão 
ou células da matriz multidimensional 


j = Cada objeto é mapeado para uma célula 
= Passo 2: Encontrar o valor para cada celula 


na matriz multidimensional 
definida pelos valores das dimensões = Que pode representar vários objetos 
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4 Identificação dos Atributos + Identificação dos Valores 


= O valor alvo é geralmente uma = Como encontrar o valor de cada 
contagem ou valor contínuo entrada da matriz? 
a Ees gusto devim item = Pela soma dos valores do atributo alvo nos 
exemplos com uma dada entrada ou 


= Pela contagem de todos os objetos que 
têm os mesmos valores dos atributos de 
entrada 


= Atributo alvo não necessariamente existe no 
conjunto original 


= Gera uma tabela fato 
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+ Identificação dos Valores + Exemplo 


= Conteúdo da entrada é a quantidade = Converter BD relacional do conjunto de 
alvo que temos interesse em analisar dados iris para uma matriz 
À multidimensional 
= Ex: numero de flores setosa (contagem) suis ssa piões 
com tamanho da petala e da sépala = Ex.: tamanho da pétala, largura da pétala e 
dentro de um certo limite classe (espécie) 


= Conversão dos valores dos atributos 
numericos para valores categoricos 
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He Exemplo + Conjunto de Dados 


= Conversão de valores numéricos para 
categóricos 
= Discretizar valores dos atributos de entrada 


para os valores categóricos pequeno, sal ss] as a 
médio e grande 


7.0 4.7 1.4 | Versicol 
. emo 7.6 6.6 2.1 | Virginic 
« Lpétala: [0, 0.75), [0.75, 1.75), [1.75, 00) 
« Tpétala: [0, 2.5), [2.5, 5), [5, 00) da 











meE Escolher Atributos + Discretizar 


a 
E E Ei 
ia] oz/Setos ea 


4.7 1.4 | Versicol 4.7 1.4 | Versicol Lpétala 
6.6 2.1 | Virginic 6.6 2.1 | Virginic pequeno: 
médio: 
grande: 

















He abela Fato He Exemplo 


Lpétala | Classe Contagem = Cada tupla dos 3 atributos corresponde 


pequeno | setosa no a um elemento da matriz 
pequeno = Esse elemento indo 


médio recebe o valor de - da pétala 
di grande versicolour |3 contagem soa 

correspondente 

versicolour |2 = As tuplas não 

grande médio virginica 3 especificadas E 

grande grande versicolour |2 recebem o valor O da pétala 


grande [grande 
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He Exemplo He Exemplo 


= Para facilitar a análise, usar fatias da = Fatias da matriz 
matriz dimensional médio | 2) 0] | 
DO] 


= Fatias podem ser exibidas como um = O que é possivel 
conjunto de 3 tabelas bidimensionais concluir a partir pequeno | médio | grande 


pequeno 0 


0 
= Uma para cada valor de um dos atributos delas? médio dl dg 


classe ou espécie 
0 0 


pequeno 0 
médio 0 0 3 
grande 0 3 44 





INOJODISISA 





oqyueure | 
BITUISIA, 














É; ” ” 
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He Exemplo He Exemplo 2 


= Fatias da matriz = Seja um conjunto de dados referentes a 


ol 
dimensional méio | 2) 0] | vendas de produtos 


grande 0 0 


pequeno | médio | grande 


= Identidade do produto 
= Localização do produto 


= O que é possível 
concluir a partir é liam E 
P) médio 3 

delas: = Data 


= Valor 


pequeno 0 0 
médio 0 3 


grande 0 





INOJODISISA 


Cada classe é caracterizada por 
combinações diferentes de valores 


SIA 





oyuruie], 
BOTUI 














Largur ; 
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4 Conjunto de Dados He Exemplo 2 


= Supor que os seguintes atributos sejam 
selecionados para as dimensões 
= Identidade do produto 


= Localização 


= = Data 
Bauru 22/12/2004 : r 
ESC O = Atributo alvo € o valor 


E e E E = Construir tabela fato 
Produto 
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He OLAP 4 Exercício 


= Em resumo: Dada à tabela ao 
= Ponto inicial: conjunto de dados em lado: 
formato de tabela « Selecionar 1 


subconjunto de 3 85| 190] 25] 3000| Jogador 

= Para representar os dados como uma atributos-dimensão [50] 170] 34| 1000] Professor 
matriz multidimensional e 1 atributo alvo 20! 165] 37] 1000] Professor 

= Identificar as dimensões Construir tabela fato | 55] 170) 26] 4500] Jogador 

= Identificar o atributo alvo (foco da análise) de a 90| 190] 22] 6000] Jogador 

= Construir tabela fato ae Soto 
Mostrar fatias da 68| 188 30| 3200| Professor 


= Construir matriz multidimensional matriz 


= Fatiar matriz 
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He OLAP He OLAP 


= Motivação chave para visão = Computação de totais agregados 
multidimensional dos dados: = Fixar valores para alguns dos atributos- 
= Permitir agregar os dados de diferentes dimensão 
maneiras = Usando esses valores fixos, agregar 
= Ex.: Dados de vendas (somar) todos os valores para os demais 


= Vendas para um ano específico em uma dada atributos 
cidade = Existem outros tipos de agregados além da 


= Vendas anuais de um certo produto em uma soma 
dada cidade 
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+ OLAP + Exemplo 


= Operação chave: formação de um cubo = Escolher a dimensão classe do conjunto 
de dados 


ris e juntar as outras dimensões 
= Resultado: 


= Vetor com três elementos, cada um com o 
número de flores de cada tipo (classe) 


= Estrutura multidimensional de dados junto 
com todas as possíveis agregações 
= Agregações que resultem da: 


» Seleção de um subconjunto adequado dos 
atributos-dimensão com junção das dimensões 


Virsínica Versicolour  Setosa 
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He Exemplo 2 He Exemplo 2 


= Seja um conjunto de dados com = Um dos agregados 2-dimensionais 
vendas de vários produtos de várias = Junto com 2 agregados de 1 dimensão e o 
empresas em diferentes datas total geral (O-dimensional) 
= Pode ser representado por uma matriz 3- E 


Jan 1, 2004 Jan 2, 2004 ... Dec 31, 2004 ) 
dimensional Ea arOIndo 
= Nessa matriz, existem: 


= 3 agregados 2-dimensionais 
= 3 agregados 1-dimensionais 
= 1 agregado O-dimensional (total geral) 9527,362 
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product ID 


$10,265 $10,225 so. $9,325 | $3,800,020 


$532,953 ... $631,221 
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+ Exemplo 2 + Exemplo 2 


= Um dos agregados 2-dimensionais = Um dos agregados 2-dimensionais 
= Junto com 2 agregados de 1 dimensão e o = Junto com 2 agregados de 1 dimensão e o 
total geral total geral 
date 


date 
Jan 1, 2004 Jan 2, 2004 ... Dec 31, 2004 Jan 1, 2004 Jan 2, 2004 
$370,000 


product ID 


$10,265 $10,225 «us $9,325 | $3,800,020 


product ID 


$10,265 $10,225 


$631,221 [227,352,127 $527,362 3532,953 





André Ponce de Leon F de Carvalho 47 


André Ponce de Leon F de Carvalho 


+ Exemplo 2 + Exercício 


= Um dos agregados 2-dimensionais = Dada a tabela ao 


= Junto com 2 agregados de 1 dimensão e o lado: 
total geral ii « Selecionar 2 


85| 190] 25] 3000] Jogador 
o amo agregados 2- 

Jan 1, 2004 Jan 2, 2004 ... dimensionais e, Ma nl 
| i para cada um, 2 

' SE agregados de 1 90) 190] 22] 6000] Jogador 

$10,265 $10,225 ... dimensão 49] 174] 44] 1300| Professor 
DE 68) 188] 30) 3200| Professor 

3527502 S534055 31221 
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product ID 
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+ Cubo de dados + Cubo de dados 


= Permite que dados sejam modelados e = Conhecido como cuboide de dados 


vistos e várias dimensões = Hierarquia (reticulado) de níveis 
= Apesar do nome, tamanho das = Topo: O-D cuboide (cuboide apex) 
dimensões não precisa ser o mesmo = Sumarização dos dados 


= Pode ter menos ou mais que 3 dimensões = Base: n-D cuboide (cuboide base) 


= Generalização do que é conhecido em = Reticulado de cuboides forma cubo de 
estatística como tabulação cruzada dados 
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4 Reticulado de cuboides + Exemplo de cubo de dados 


tudo 


Data Total anual de 


AS 0-D(apex) cuboide R Tv 1Qdm 2Qdm 3Qdm 4Qdm Soma vendas de TV 
y fornecedor Z £ E EUA nos EUA 
D / Z 


1-D cuboides / ; 
Dos Pe Canada 


2-D cuboides — | ; Mexico 

















Mm 
3-D cuboides Roma 


4-D(base) cuboide <— Total geral 
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Cuboides correspondentes ao cubo 


0-D(apex) cuboide 
produto 


1-D cuboides 


produto, data 


2-D cuboides 


3-D(base) cuboide 


Produto, data, país 


Operações OLAP 


= Agregação pode ser vista como uma 
forma de redução de dimensionalidade 


= Elimina uma ou mais colunas (linhas) 
somando seus valores 


= Uma coluna (linha) de células vira uma 
única célula 


= Exemplo mostrado para os dados de 
vendas reduziu de 3 para 2 dimensões 
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Slicing 
= Fatiamento 


= Seleciona um grupo de células da matriz 


= Especificando um valor específico para uma ou 
mais dimensões 


Largura 


oyuruir] 


Operações OLAP 


= Permitem manipular matriz multidimensional 


= Redução de dimensionalidade 
= Agregação 
= Pivotagem 


Slicing (fatiamento) 
Dicing (corte) 

Roll up 

Drill down 
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Pivotagem 


= Agregar sobre todas as dimensões 
exceto duas 
date 


Jan 1, 2004 Jan 2,2004 ... Dec 31, 2004 
6987... 11 5370.000 


product ID 


$10,265 $10,225 ... $9,325 | $3,800,020 


$631,221 | $227,352,127 
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Dicing 
= Cortar em cubos 


= Seleciona um subconjunto de células da 
matriz 


= Especificando um intervalo de valores para 
atributos 


= Equivalente a definir uma sub-matriz da matriz 





Slicing e Dicing podem 


O ã 1 Araraquara 
Setosa operações de agregação 
sobre algumas dimensões FS FR A 
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com pleta Produtold | Local Valor 
1 São Carlos 250 
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+ Roll-Up e Drill-Down + Roll-Up e Drill-Down 


= Cada atributo não precisa ser visto = Categorias podem ser organizadas em 


como atômico redes ou árvores hierárquicas 
= Pode ter propriedades associadas a ele 


= Data = Local = Produto 


= Ano = Continente = Roupa mesa ventilador 
A ; or semana 
= Mês = Pais = Moveis 


= Dia à Estado FERAS E parafuso porca madeira 
. . domingo ... sábado 
= Semestre = Cidade = Alimentos 
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+ Roll-Up e Drill-Down + Roll-Up e Drill-Down 


= Roll-up = Diferentes granularidades devem estar 
= Subir na hierarquia disponíveis na tabela 


= Agregar valores do atributo = Relacionadas a agregação 
= Ex.: Vendas do mês somando vendas do dia 


iilcdoni = Mas fazem várias agregações de células 
E E E | dentro de uma dimensão 
escer na hierarquia E Da =: ; 
i SA = € não uma única agregação através da 
= Quebrar valores do atributo inensão inicia 
= Ex.: Vendas diárias quebrando as vendas do mês 
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+ Observações + Exercício 


= Existem outros tipos de sistemas de BDs que = Dada a tabela ao 
suportam analise de dados multidimensionais lado: 
= Alguns são baseados em BDs relacionais « Mostrar pelo 


= Conhecidos como sistemas ROLAP ans iia 
= Alguns usam como modelo de dados um exemplo para as 60| 170]  34| 1000] Professor 
representação especificamente multidimensional eles: 
= Conhecidos como sistemas MOLAP = 65) 170] 26) 4500] Jogador 
Ra , = Dicing 90! 190] 22] 6000] Jogador 
= BDs estatísticos tambem foram desenvolvidos para « Slicing o ral al 1300] Profesor 
armazenar e analisar varios tipos de dados Ei Sos ol oro 
estatísticos - p rofessor 


ill- 75| 192 24! 4000| Jogador 
= Conhecidos como SDBs = Drill-Down [24] 4000] Jogador | 
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+ Considerações Finais + Material do curso 


= Data warehousing = Moodle 
= Data warehouse = http://disciplinas.stoa.usp.br/ 
= Armazena grandes quantidades de dados 


= Pode ser dividida em unidades lógicas 
menores (data marts) 


= OLAP 
= Cubos de dados 
= Operações com OLAP 
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+ Perguntas 





André Ponce de Leon F de Carvalho 


